home *** CD-ROM | disk | FTP | other *** search
/ Monster Media 1996 #15 / Monster Media Number 15 (Monster Media)(July 1996).ISO / os2 / unh202.zip / UNH202.TXT < prev   
Text File  |  1996-04-25  |  3KB  |  68 lines

  1.        OS/2 Upload Information Template for ftp-os2.nmsu.edu
  2.  
  3. Archive Name: UNH202.ZIP
  4. Program Description: a command line utility to strip HTML codes
  5. Operating System Versions: OS/2 2.x and later
  6. Program Source: Don Hawkinson, author
  7. Replaces: UNH175.ZIP UNH150.ZIP 
  8.  
  9. Your name: Don Hawkinson
  10. Your email address: dwhawk@southwind.net 
  11.  
  12. Proposed directory for placement:  ./os2/textutil
  13.  
  14. This is an OS/2 command line utility to strip HTML codes from
  15. files saved from the WebX or other web browsers. 
  16.  
  17. UNH 2.02  HTML stripper by Don Hawkinson  dwhawk@southwind.net
  18.  
  19. usage:  ..\unh  file1 file2 <file3>
  20.  
  21.     file1 == html file
  22.     file2 == stripped text output file
  23.     file3 == URLs from html source file - optional
  24.  
  25.  
  26. UNH does not check for the existance of the output
  27. file, and will overwrite any existing file.  UNH
  28. is HPFS aware.
  29.  
  30. UNH does not attempt to recreate the format of the
  31. Web page.  UNH does not attempt to force any format
  32. on the output text, nor does it attempt to remove any existing
  33. text format. While the layout of tables and lists is lost
  34. during stripping, data is sorted to separate lines for
  35. legibility.
  36.  
  37. The HTML specification defines Character Entity Sets or tags
  38. to represent particular graphic characters which have special
  39. meanings in places in the markup, or may not be part of the
  40. character set available to the writer. UNH does not attempt
  41. to scan for all of the possible tags, but does try to resolve
  42. the most common tags.
  43.  
  44. This version of UNH has support for codepages 437 and 850
  45. and if codepage 850 is in use, the 850 character set is used.
  46. The codepages only make a difference when  &xxxx; tags are
  47. present in the file. If the correct character or an acceptable
  48. alternate is not available, then the &xxxx; tag will be left
  49. in the file.  
  50.  
  51. Only a few of the &#nnn; tags are supported.  They do not seem to
  52. be widely used and scanning for all of them will increase the time
  53. it takes to process an .HTML or .HTM file. 
  54.  
  55. If an unrecognized tag is encountered, it is left in the output text.
  56.  
  57. This version should be useable under OS/2 2.1, but it has not been
  58. tested.  The special compression option for OS/2 Warp was not used
  59. when linking the executable.
  60.  
  61. This program is free, but the author retains all rights. See the file
  62. license.txt file for further information.
  63.  
  64. The command line utility UNH.EXE uses the same logic as PMStripper
  65. to strip the HTML codes from files.  For information on PMStripper
  66. contact send email to dwhawk@southwind.net .
  67.                                                           
  68.